grpo卫兵

可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

目前，GRPO 在图像和视频生成的流模型中取得了显著提升（如 FlowGRPO 和 DanceGRPO），已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。